home *** CD-ROM | disk | FTP | other *** search
/ SuperHack / SuperHack CD.bin / Hack / MISC / ENGLIS~1.ZIP / ENGLIS~1 / english / README < prev   
Encoding:
Text File  |  1992-08-02  |  12.1 KB  |  300 lines

  1.  
  2. FILE: english.words
  3. VERSION: DEC-SRC-92-04-05
  4.  
  5. EDITOR
  6.  
  7.     Jorge Stolfi <stolfi@src.dec.com>
  8.     DEC Systems Research Center
  9.   
  10. AUTHORS OF ORIGIONAL WORDLISTS
  11.  
  12.     Andy Tanenbaum <ast@cs.vu.nl>
  13.     Barry Brachman <brachman@cs.ubc.ca>
  14.     Geoff Kuenning <geoff@itcorp.com>
  15.     Henk Smit <henk@cs.vu.nl>
  16.     Walt Buehring <buehring%ti-csl@csnet-relay>
  17.  
  18. DESCRIPTION
  19.  
  20.     The file english.words is a list  of over 104,000
  21.     English words compiled from several public domain wordlists.  
  22.  
  23.     The file has one word per line, and is sorted with sort(1)
  24.     in plain ASCII collating sequence.
  25.  
  26.     The file is supposed to include all verb forms ("-s", "-ed",
  27.     "-ing"), noun plurals and possesives, and forms derived by various
  28.     prefixes and suffixes ("un-", "re-", "-ly", "-er", "-ation", etc.)
  29.     However, the list is still highly incomplete and inconsistent: not
  30.     all stems have all forms, and some forms (notably possesive
  31.     plural) are missing altogether.
  32.  
  33.     The file is NOT supposed to contain any "proper" names, such as
  34.     the names of ordinary persons, corporations and organizations;
  35.     nations, countries and other geographical names; mythological
  36.     figures; biological genera; and trademarked products.  It is also
  37.     not supposed to contain abbreviations, measurement symbols, and
  38.     acronyms. (Some of these are available in separate files; see
  39.     below).
  40.  
  41.     The pronoun "I" and its contractions ("I'm", "I've") are
  42.     capitalized as usual; the other words are all in lowercase.
  43.     Besides the letters [a-zA-Z], the file uses only hyphen
  44.     apostrophe, and newline.
  45.  
  46. AUXILIARY LISTS
  47.  
  48.     In the same directory as englis.words there are a few
  49.     complementary word lists, all derived from the same sources [1--8]
  50.     as the main list:
  51.  
  52.     english.names
  53.  
  54.         A list of common English proper names and their derivatives.
  55.         The list includes: person names ("John", "Abigail",
  56.         "Barrymore"); countries, nations, and cities ("Germany",
  57.         "Gypsies", "Moscow"); historical, biblical and mythological
  58.         figures ("Columbus", "Isaiah", "Ulysses"); important
  59.         trademarked products ("Xerox", "Teflon"); biological genera
  60.         ("Aerobacter"); and some of their derivatives ("Germans",
  61.         "Xeroxed", "Newtonian").
  62.     
  63.     misc.names
  64.  
  65.         A list of foreign-sounding names of persons and places
  66.         ("Antonio", "Albuquerque", "Balzac", "Stravinski"), extracted
  67.         from the lists [1--8].  (The distinction betweeen
  68.         "English-sounding" and "foreign-sounding" is of course rather
  69.         arbitrary).
  70.  
  71.     org.names
  72.  
  73.         A short lists names of corporations and other institutions
  74.         ("Pepsico", "Amtrak", "Medicare"), and a few derivatives.  
  75.  
  76.         The file also includes some initialisms --- acronyms and
  77.         abbreviations that are generally pronounced as words rather
  78.         than spelled out ("NASA", "UNESCO").
  79.  
  80.     english.abbrs
  81.  
  82.         A list of common abbreviations ("etc.", "Dr.", "Wed."),
  83.         acronyms ("A&M", "CPU", "IEEE"), and measurement symbols
  84.         ("ft", "cm", "ns", "kHz").
  85.  
  86.     english.trash
  87.                 
  88.         A list of words from the original wordlists
  89.         that I decided were either wrong or unsuitable for inclusion
  90.         in the file english.words or any of the other auxiliary 
  91.         lists. It includes
  92.         
  93.           typos ("accupy", "aquariia", "automatontons")
  94.           spelling errors ("abcissa", "alleviater", "analagous")
  95.           bogus derived forms ("homeown", "unfavorablies", "catched")
  96.           uncapitalized proper names ("afghanistan", "algol", "decnet")
  97.           uncapitalized acronyms ("apl", "ccw", "ibm")
  98.           unpunctuated abbreviations ("amp", "approx", "etc")
  99.           British spellings ("advertize", "archaeology")
  100.           archaic words ("bedight")
  101.           rare variants ("babirousa")
  102.           unassimilated foreign words ("bambino", "oui", "caballero")
  103.           mis-hyphenated compounds ("babylike", "backarrows")
  104.           computer keywords and slang ("lconvert", "noecho", "prog"), 
  105.  
  106.         (I apologize for excluding British spellings.  I should have
  107.         split the list in three sublists--- common English, British,
  108.         American---as ispell does.  But there are only so many hours
  109.         in a day...)
  110.  
  111.     english.maybe
  112.  
  113.         A list of about 5,000 lowercase words from the "mts.dict"
  114.         wordlist [6] that weren't included in english.words.
  115.  
  116.         This list seems to include lots of "trash", like uncapitalized
  117.         proper names and weird words.  It would take me several days
  118.         to sort this mess, so I decided to leave it as a separate
  119.         file.  Use at your own risk...
  120.         
  121. ORIGINAL LISTS 
  122.  
  123.     The original wordlists from which those files were compiled are
  124.     listed below.  They were obtained by anonymous FTP on 92-Feb-10.
  125.  
  126.     [1] file: ispell/ispell/english.lrg
  127.         size: 690778 bytes
  128.         contact: Walt Buehring <buehring%ti-csl@csnet-relay>
  129.         from: phloem.uoregon.edu: /pub/src/ispell.3.0.tar.Z
  130.  
  131.           * The (unexpanded) "large" english wordlist for ispell 3.0.
  132.  
  133.     [2] file: ispell/ispell/english.sml+
  134.         size: 575226 bytes
  135.         contact: Walt Buehring <buehring%ti-csl@csnet-relay>
  136.         from: phloem.uoregon.edu: /pub/src/ispell.3.0.tar.Z
  137.  
  138.           * The (expanded) "small" english wordlist for ispell 3.0.
  139.  
  140.     [3] file: words.english.Z
  141.         size: 217119 bytes (479261 bytes uncompressed)
  142.         contact: Henk Smit <henk@cs.vu.nl>
  143.         from: donau.et.tudelft.nl: /pub/words/
  144.  
  145.           * From the README file on ftp.cs.vu.nl:
  146.  
  147.                 This list is made out of 2 lists,
  148.                   the normal /usr/dict/words on most Unix systems,
  149.                   TeX english wordlist (available at archive.cs.ruu.nl)
  150.  
  151.     [4] file: dict.2
  152.         size:   274848 bytes
  153.         contact: H Morrow Long <long-morrow@CS.YALE.EDU>
  154.         from: bulldog.cs.yale.edu: /pub/dict.shar
  155.  
  156.           * According to H. Morrow, it came with some version
  157.             of the "ispell" package.
  158.  
  159.     [5] file: minix.dict
  160.         size: 357226 bytes
  161.         author: Andy Tanenbaum <ast@cs.vu.nl>
  162.         from: cs.ubc.ca: /pub/wordlists-1.0.tar.Z
  163.  
  164.           * From the README file:
  165.  
  166.             Article 1997 of comp.os.minix:
  167.             From: ast@botter.UUCP
  168.             Subject: A spelling checker for MINIX
  169.             Date: 6 Jan 88 22:28:22 GMT
  170.             Reply-To: ast@cs.vu.nl (Andy Tanenbaum)
  171.             Organization: VU Informatica, Amsterdam
  172.  
  173.             This dictionary is NOT based on the UNIX dictionary so it
  174.             is free of AT&T copyright.
  175.  
  176.             I built the dictionary from three sources.  First, I
  177.             started by sorting and uniq'ing some public domain
  178.             dictionaries.  Second, as some of you probably know, I
  179.             have written somewhere between 3 and 6 books (depending on
  180.             precisely what you count) and an additional 50 published
  181.             papers on operating systems, networks, compilers,
  182.             languages, etc.  This data base, which is online, is
  183.             nonnegligible :-) Finally, I added a number of words that
  184.             I thought ought to be in the dictionary including all the
  185.             U.S. states, all the European and some other major
  186.             countries, principal U.S. and world cities, and a bunch of
  187.             technical terms.  I don't want my spelling checker to barf
  188.             on arpanet, diskless, modem, login, internetwork,
  189.             subdirectory, superuser, vlsi, or winchester just because
  190.             Webster wouldn't approve of them.
  191.  
  192.             All in all, the dictionary is over 40,000 words.  If you
  193.             have any suggestions for additions or deletions, please
  194.             post them.  But please be sure you are not infringing on
  195.             anyone's copyright in doing so.
  196.  
  197.               Andy Tanenbaum (ast@cs.vu.nl)
  198.  
  199.     [6] file: mts.dict
  200.         size: 346983 bytes
  201.         contact: Barry Brachman <brachman@cs.ubc.ca>
  202.         from: cs.ubc.ca: /pub/wordlists-1.0.tar.Z
  203.  
  204.           * From the README file:
  205.  
  206.             These word lists were collected by Barry Brachman
  207.             <brachman@cs.ubc.ca> at the University of British
  208.             Columbia.  They may be freely distributed as long as this
  209.             notice accompanies them.
  210.  
  211.             mts.dict contains only words that are not in
  212.             /usr/dict/words.  [But note that your version of
  213.             /usr/dict/words may be different from mine!  Use "sort -u"
  214.             to get a list of unique words. ]
  215.  
  216.               From wc:
  217.  
  218.               24259   24259  198596 /usr/dict/words
  219.               35475   35475  346992 mts.dict
  220.               -----   ----- -------
  221.               59734   59734  545588 total
  222.  
  223.  
  224.     [7] file: words.english.Z
  225.         size: 288385 bytes (644217 bytes uncompressed)
  226.         from: ftp.hawaii.edu: /pub/editors/LEXICAL/word-lists/
  227.         author: unknown.
  228.  
  229.     COMMENTS: The "large" list from ispell 3.0 [1] is the most
  230.     complete, and contains almost all the words of the "small" ispell
  231.     list [2], of Andy Tannenbaum's list minix.dict [5], and of the
  232.     lists from Delft and Yale [3, 4], as well as /usr/dict/words. It
  233.     leaves out some 500--1000 words from each of these lists.
  234.  
  235.     On the other hand, the file mts.dict from UBC [6] contains some 7000
  236.     words that are not in the ispell list [1].  Therefore, mts.dict
  237.     seems to be largely orthogonal to the list [1--5].
  238.  
  239.     The file words.english from Hawaii [7] seems to be the union of
  240.     mts.dict [6], Andy's file minix.dict [5], and /usr/dict/words,
  241.     except that it omits some 250 words from the latter.
  242.  
  243. COMPILATION PROCESS
  244.  
  245.     The file english.words is a slightly cleaned-up version of
  246.     the "large" english wordlist [1] that comes with the ispell
  247.     3.0 package, which is available from phloem.uoregon.edu.  
  248.  
  249.     First, I expanded the prefixes and suffixes using "isexpand" and
  250.     some Gnuemacs hacking, and removed all words with capitals or
  251.     periods.  Then I compared the result with other publicly available
  252.     wordlists [2--7], and did a little bit of manual cleanup.  That
  253.     meant removing some 8500 words that were obviously wrong or
  254.     inappropriate, and adding about 4800 new words.  Those 8500
  255.     words were largely distributed among the other lists.
  256.  
  257.     The table below gives the number of lowercase words in each
  258.     original list ("lcase"), and how many of such words were included
  259.     ("accept") and not included ("reject") in the final file
  260.     english.words:
  261.  
  262.       ref  site: file                lcase  accept  reject
  263.       ---  ----------------------  -------  ------  ------
  264.       [1]  uoregon: english.lrg     103124  102000    1124
  265.       [2]  uoregon: english.sml+     56694   56223     471
  266.       [3]  tudelft: words.english    48150   47305     845
  267.       [4]  yale: dict.2              47355   46577     778
  268.       [5]  ubc: minix.dict           38699   38394     305
  269.       [6]  ubc: mts.dict             35215   28874    6341
  270.       [7]  hawaii: words.english     65165   57558    7607
  271.  
  272. (NON-)COPYRIGHT STATUS
  273.  
  274.   To the best of my knowledge, all the files I used to build these
  275.   wordlists were available for public distribution and use, at least
  276.   for non-commercial purposes.  I have confirmed this assumption with
  277.   the authors of the lists, whenever they were known.
  278.   
  279.   Therefore, it is safe to assume that the wordlists in this package
  280.   can also be freely copied, distributed, modified, and used for
  281.   personal, educational, and research purposes.  (Use of these files in
  282.   commercial products may require written permission from DEC and/or
  283.   the authors of the original lists.)
  284.   
  285.   Whenever you distribute any of these wordlists, please distribute
  286.   also the accompanying README file.  If you distribute a modified
  287.   copy of one of these wordlists, please include the original README
  288.   file with a note explaining your modifications.  Your users will
  289.   surely appreciate that.
  290.  
  291. (NO-)WARRANTY DISCLAIMER
  292.  
  293.   These files, like the original wordlists on which they are based,
  294.   are still very incomplete, uneven, and inconsitent, and probably
  295.   contain many errors.  They are offered "as is" without any warranty
  296.   of correctness or fitness for any particular purpose.  Neither I nor
  297.   my employer can be held responsible for any losses or damages that
  298.   may result from their use.
  299.  
  300.